Saltar al contenido principal

Automatización de Verificación de Domicilio mediante Lectura de Boletas de Servicios

Plataforma: Procesamiento Documental, OCR y Layout Parser Tipo: Proyecto Cerrado Fecha: 2023 - 2024 Enlace: No disponible


Resumen

Este proyecto tuvo como objetivo automatizar la verificación de domicilio mediante la lectura de boletas de servicios básicos.

La solución permitía extraer información relevante desde documentos como boletas de luz, agua, gas, telefonía o servicios similares, identificando campos como nombre, RUT, domicilio y fecha de emisión.

A diferencia de otros proyectos documentales más controlados, este caso presentó una dificultad importante: los documentos llegaban en formatos muy variables, desde archivos digitales hasta fotografías tomadas por usuarios, escaneos de baja calidad o imágenes con problemas de orientación, iluminación y resolución.


Referencias Visuales

Documento de referencia

La siguiente imagen corresponde a un ejemplo público utilizado únicamente con fines ilustrativos.

layout

Fuente del ejemplo:

https://www.scribd.com/document/424783398/Boleta-movistar


Contexto

La verificación de domicilio es un proceso frecuente en trámites, validaciones internas y procesos de enrolamiento de usuarios.

Tradicionalmente, esta revisión requiere que una persona inspeccione manualmente una boleta de servicio para confirmar que los datos declarados coinciden con la información contenida en el documento.

El objetivo del proyecto fue reducir la carga manual asociada a esta revisión, transformando documentos no estructurados o semi-estructurados en información validable automáticamente.


Problema

El principal desafío era extraer información confiable desde documentos con calidades muy distintas.

El sistema debía trabajar con:

  • Documentos digitales.
  • Escaneos.
  • Fotografías tomadas con celular.
  • Imágenes comprimidas.
  • Documentos inclinados o mal encuadrados.
  • Boletas con distintos diseños según proveedor.

La solución debía identificar campos clave para la verificación de domicilio:

  • Nombre.
  • RUT.
  • Dirección.
  • Fecha de emisión.
  • Tipo de documento o servicio.

Arquitectura General


Solución

La solución fue construida utilizando un pipeline de procesamiento documental orientado a identificar zonas relevantes dentro de boletas de servicios.

El flujo general consistía en:

  1. Recepción del documento.
  2. Preprocesamiento de imagen.
  3. Identificación de regiones relevantes mediante layout parser.
  4. Extracción de texto mediante OCR.
  5. Normalización de campos.
  6. Validación de la información obtenida.

El layout parser permitía focalizar la extracción en zonas específicas del documento, reduciendo ruido y mejorando la precisión sobre los campos relevantes.


Mi Participación

Participé como líder y responsable técnico del proyecto.

Mis responsabilidades incluyeron:

  • Diseño de la estrategia de procesamiento documental.
  • Coordinación del equipo.
  • Definición de campos relevantes.
  • Supervisión del etiquetado de datos.
  • Coordinación con el etiquetador.
  • Implementación del layout parser.
  • Validación de resultados.
  • Entrega dentro del plazo establecido.

El proyecto fue desarrollado en un plazo acotado, cumpliendo la entrega en aproximadamente dos semanas desde la recepción de los datos.


Desafíos Técnicos

Variabilidad de Documentos

Cada proveedor de servicios utiliza diseños distintos, por lo que la solución debía adaptarse a múltiples estructuras documentales.

Calidad de Entrada

La calidad de los documentos afectaba directamente el rendimiento del OCR.

Los principales problemas observados fueron:

  • Baja resolución.
  • Imágenes borrosas.
  • Fotografías inclinadas.
  • Mala iluminación.
  • Compresión excesiva.
  • Documentos parcialmente cortados.

Extracción de Campos Críticos

El domicilio podía aparecer en distintas posiciones y formatos, lo que exigía normalización y validación posterior.


Tecnologías Utilizadas

  • Python
  • OCR
  • Layout Parser
  • Procesamiento de Imágenes
  • Procesamiento Documental
  • Etiquetado de Datos
  • Automatización

Resultados

La solución permitió:

  • Automatizar la lectura de boletas de servicios.
  • Extraer campos relevantes para verificación de domicilio.
  • Reducir la revisión manual.
  • Mejorar la velocidad del proceso de validación.
  • Estandarizar la información extraída.
  • Entregar una solución funcional dentro del plazo definido.

Impacto

El proyecto permitió acelerar un proceso que normalmente dependía de revisión humana directa.

Al automatizar la extracción de datos desde boletas de servicios, se redujo la carga operativa y se generó una base para escalar el proceso hacia mayores volúmenes documentales.


Lo que Aprendí

Este proyecto reforzó una lección importante en soluciones de OCR: el rendimiento no depende únicamente del modelo o del algoritmo utilizado, sino también de la calidad y variabilidad del documento recibido.

Trabajar con documentos reales permitió enfrentar problemas que muchas veces no aparecen en pruebas controladas, como fotografías mal tomadas, documentos comprimidos o diseños muy distintos entre proveedores.

También fue una experiencia relevante en liderazgo técnico bajo plazos exigentes, coordinación de etiquetado y entrega rápida de una solución funcional.


Viéndolo en Retrospectiva

Este proyecto consolidó una línea de trabajo que ya venía desarrollando en procesamiento documental y extracción automatizada de información.

A diferencia de documentos más estructurados, las boletas de servicios representaban un desafío mayor por su variabilidad visual y por la calidad irregular de entrada.

La experiencia reafirmó la importancia de diseñar soluciones documentales robustas, capaces de adaptarse a documentos reales y no solo a ejemplos limpios o digitalmente generados.


Información Adicional

Por razones de confidencialidad no se incluyen nombres de clientes, estructuras internas ni documentos reales procesados durante el proyecto.

La imagen utilizada corresponde a un documento público de referencia y se incluye únicamente con fines ilustrativos.